A análise multivariada de variância (MANOVA) é uma generalização da análise de variância univariada (ANOVA)
Enquanto a ANOVA se concentra no estudo das diferenças entre as médias populacionais dos grupos em uma única variável dependente, a MANOVA examina essas diferenças em duas ou mais variáveis dependentes simultaneamente.
Tanto a ANOVA quanto a MANOVA só fornecem informações sobre a existência de diferenças estatisticamente significativas entre as médias dos grupos em um conjunto de variáveis dependentes, necessitando de outros testes para obtermos resultados mais confiáveis e precisos.
A maioria das pesquisas não estão interessadas em avaliar as diferenças entre médias para uma única variável dependente, mas sim para um conjunto de variáveis dependentes.
Se fizermos várias ANOVAs, presumimos que não existe uma estrutura de correlação entre as variáveis dependentes, ou que uma tal estrutura não é de interesse.
A MANOVA presume existência de correlação significativa entre as variáveis dependentes.
Neste contexto, se realizarmos várias ANOVAs…
ERRO TIPO I: Rejeitar \(H_0\) quando esta é verdadeira!
Considere g amostras aleatórias independentes \(X_{j1}, X_{j2}, \cdots, X_{jn_j}\), \(j = 1, \cdots, g\) de tamanhos \(n_j\) de distribuições \(N(\mu_j,\sigma^2)\).
As hipóteses de interesse são:
\[H_0: \mu_1 = \mu_2 = \cdots = \mu_g\] \[H_a: \text{pelo menos uma média é diferente das demais}\]
O modelo ANOVA é definido por
\[X_{ji} = \mu_j + \epsilon_{ji}\]
\[X_{ji} = \underbrace{\mu_j}_{\text{média da j-ésima amostra}} + \overbrace{\epsilon_{ji}}^{\text{erro aleatório i-ésima observação na j-ésima amostra}}\]
\(i = 1, \cdots, n_j\) e \(j = 1, \cdots, g\)
Em geral, adota-se a seguinte reparametrização:
\[\mu_j = \mu + \tau_j\]
\[\mu_j = \underbrace{\mu}_{\text{média geral}} + \overbrace{\tau_{j}}^{\text{efeito do j-ésimo tratamento}}\]
e, assim, as hipóteses equivalentes são:
\[H_0: \tau_1 = \tau_2 = \cdots = \tau_g = 0\] \[H_a: \text{pelo menos um é não-nulo}\]
O modelo ANOVA é redefinido por
\[X_{ji} = \mu + \tau_j + \epsilon_{ji}\]
\(i = 1, \cdots, n_j\) e \(j = 1, \cdots, g\)
Suposição: \(\epsilon_{ji} \stackrel{\text{ind}}{\sim} N(0,\sigma^2)\)
No modelo de efeito fixo, temos:
\[\mu = \displaystyle{\frac{\displaystyle{\sum_{j=i}^g n_j \mu_j}}{\displaystyle{\sum_{j=1}^g n_j}}} = \displaystyle{\frac{\displaystyle{\sum_{j=i}^g n_j (\mu + \tau_j)}}{\displaystyle{\sum_{j=1}^g n_j}}} = \displaystyle{\mu + \frac{\displaystyle{\sum_{j=i}^g n_j \tau_j}}{\displaystyle{\sum_{j=1}^g n_j}}} \Rightarrow \displaystyle{\sum_{j=1}^g n_j\tau_j = 0}\]
O procedimento básico adotado é a decomposição da soma de quadrados totais:
\[\begin{eqnarray} \underbrace{\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{\ldotp \ldotp})^2}_{\text{SQ Total}} &=& \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{j \ldotp} + \bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp})^2 = \nonumber \\ &=& \underbrace{\displaystyle{\sum_{j=1}^g} n_j (\bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp})^2}_{\text{SQ Tratamentos}} + \underbrace{\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{j \ldotp})^2}_{\text{SQ Resíduos}} \nonumber \end{eqnarray}\]
As estimativas de mínimos quadrados de \(\mu\) e \(\tau_j\) são dadas por
\[\widehat{\mu} = \bar{x}_{\ldotp \ldotp} = \displaystyle{\frac{1}{n}}\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}} x_{ji},\text{ com }n = \displaystyle{\sum_{j=1}^g n_j}\]
\[\widehat{\tau}_j = \bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp}, \text{ com } \bar{x}_{j \ldotp} = \displaystyle{\frac{1}{n_j}} \displaystyle{ \sum_{i=1}^{n_j} x_{ji}}\]
Um estimador não viciado para \(\sigma^2\) é dado por \(\widehat{\sigma}^2 = \displaystyle{\frac{\text{SQ Resíduos}}{n - g}}\), com \(n = \displaystyle{\sum_{j=1}^g n_j}\).
| Fonte de Variação | G.L. | SQ | QM | F |
|---|---|---|---|---|
| Tratamento | \(g - 1\) | \(\displaystyle{\sum_{j=1}^g} n_j (\bar{x}_{j \ldotp} - \bar{x}_{\ldotp \ldotp})^2\) | \(\displaystyle{\frac{SQ Trat}{g - 1}}\) | \(\displaystyle{\frac{QM Trat}{QM Res}}\) |
| Resíduos | \(n - g\) | \(\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{j \ldotp})^2\) | \(\displaystyle{\frac{SQ Res}{n - g}}\) | |
| Total | \(n - 1\) | \(\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(x_{ji} - \bar{x}_{\ldotp \ldotp})^2\) | ||
Se \(H_0\) é verdadeira, \(F \sim F_{g - 1, n-g}\). Logo, rejeitamos \(H_0\) ao nível de significância \(\alpha\) se \(F > F_{g - 1, n-g}(\alpha)\).
Observe que isto é equivalente a dizer que o teste rejeita \(H_0\) para valores grandes da razão \(\displaystyle{\frac{SQ Trat}{SQ Res}}\).
Equivalentemente, valores grandes de \(1 + \displaystyle{\frac{SQ Trat}{SQ Res}}\), ou de forma análoga, valores pequenos da recíproca, dada por
\[\displaystyle{\frac{SQ Res}{SQ Trat + SQ Res}}\]
Adiante, veremos que uma estatística de teste multivariada, com suas devidas adaptações, tem forma similar à esta acima.
Considere as seguintes amostras aleatórias coletadas de \(g \geqslant 2\) populações:
Amostra 1: \(\mathbf{x}_{11}, \mathbf{x}_{12}, \cdots, \mathbf{x}_{1n_1}\) da população \(\pi_1\)
Amostra 2: \(\mathbf{x}_{21}, \mathbf{x}_{22}, \cdots, \mathbf{x}_{2n_2}\) da população \(\pi_2\)
\[\vdots\]Amostra g: \(\mathbf{x}_{g1}, \mathbf{x}_{g2}, \cdots, \mathbf{x}_{gn_g}\) da população \(\pi_g\)
O modelo MANOVA é definido por
\[\mathbf{x}_{ji} = \mathbf{\mu} + \mathbf{\tau}_j + \mathbf{\epsilon}_{ji}\]
\(i = 1, \cdots, n_j\) e \(j = 1, \cdots, g\)
Suposição: \(\mathbf{\epsilon}_{ji} \stackrel{\text{ind}}{\sim} N_p(\mathbf{0},\mathbf{\Sigma})\)
Restrição: \(\displaystyle{\sum_{j=1}^g n_j \mathbf{\tau}_j = \mathbf{0}}\)
Soma de Quadrados Total:
\[SQ Tot = \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{\ldotp \ldotp})(\mathbf{x}_{ji} - \bar{\mathbf{X}}_{\ldotp \ldotp})^t\]
Decomposição da Soma de Quadrados Total:
\[\underbrace{\displaystyle{\sum_{j=1}^g} n_j (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp}) (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp})^t}_{\text{SQ Tratamentos}} + \underbrace{\displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp})(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp})^t}_{\text{SQ Resíduos}}\]
Observação: Os graus de liberdade de todos os casos são os mesmos do caso univariado.
\[H_0: \mathbf{\tau}_1 = \mathbf{\tau}_2 = \cdots = \mathbf{\tau}_g = \mathbf{0}\] \[H_a: \text{pelo menos um é não-nulo}\]
| Fonte de Variação | G.L. | Matriz de SQ |
|---|---|---|
| Tratamento | \(g - 1\) | \(H = \displaystyle{\sum_{j=1}^g} n_j (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp}) (\bar{\mathbf{x}}_{j \ldotp} - \bar{\mathbf{x}}_{\ldotp \ldotp})^t\) |
| Resíduos | \(n - g\) | \(E = \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp}) (\mathbf{x}_{ji} - \bar{\mathbf{x}}_{j \ldotp})^t\) |
| Total | \(n - 1\) | \(T = \displaystyle{\sum_{j=1}^g} \displaystyle{\sum_{i=1}^{n_j}}(\mathbf{x}_{ji} - \bar{\mathbf{x}}_{\ldotp \ldotp}) (\mathbf{x}_{ji} - \bar{\mathbf{x}}_{\ldotp \ldotp})^t\) |
Uma possível estatística de teste envolve variâncias generalizadas. Seja,
\[\Lambda = \displaystyle{\frac{|E|}{|H + E|}}\]
Rejeitamos \(H_0\) se \(\Lambda\) for um valor pequeno.
Casos especiais
| \(p = 1\) | \(g \geqslant 2\) | \(\displaystyle{\left(\frac{n - g}{g - 1}\right)} \displaystyle{\left(\frac{1 - \Lambda}{\Lambda}\right)} \sim F_{g - 1,n - g}\) |
|---|---|---|
| \(p = 2\) | \(g \geqslant 2\) | \(\displaystyle{\left(\frac{n - g - 1}{g - 1}\right)} \displaystyle{\left(\frac{1 - \sqrt{\Lambda}}{\sqrt{\Lambda}}\right)} \sim F_{2(g - 1),2(n - g - 1)}\) |
| \(p \geqslant 1\) | \(g = 2\) | \(\displaystyle{\left(\frac{n - p - 1}{p}\right)} \displaystyle{\left(\frac{1 - \Lambda}{\Lambda}\right)} \sim F_{p, n - p- 1}\) |
| \(p \geqslant 1\) | \(g = 3\) | \(\displaystyle{\left(\frac{n - p - 2}{p}\right)} \displaystyle{\left(\frac{1 - \sqrt{\Lambda}}{\sqrt{\Lambda}}\right)} \sim F_{2p,2(n - p - 2)}\) |
Bartlett mostrou que se \(H_0\) é verdadeira e \(n\) é grande, então,
\[-\left(n - 1 - \displaystyle{\frac{p + g}{2}}\right) \ln(\Lambda) \dot{\sim} \chi_{p(g - 1)}^2\]
Consequentemente, se \(n\) é grande, rejeitamos \(H_0\) ao nível de significância \(\alpha\), se
\[-\left(n - 1 - \displaystyle{\frac{p + g}{2}}\right) \ln(\Lambda) > \chi_{p(g - 1)}^2(\alpha)\]
\[U = tr(HE^{-1})\]
Sob \(H_0\), temos que
\[\displaystyle{\frac{2(sn + 1)}{s^2(2m + s + 1)}U \hspace{0.2cm} \dot{\sim} \hspace{0.2cm} F_{s(2m + s + 1),2(sn + 1)}}\]
\[V = tr[H(H + E)^{-1}]\]
Sob \(H_0\), temos que
\[\left(\displaystyle{\frac{V}{s - V}} \right) \left(\displaystyle{\frac{2n + s + 1}{2m + s + 1}}\right) \hspace{0.2cm} \dot{\sim} \hspace{0.2cm} F_{s(2m + s + 1),s(2n + s + 1)}\]
\[\Theta = \lambda_1\]
sendo \(\lambda_1\) o maior autovalor da matriz \(HE^{-1}\).
Sob \(H_0\), temos que
\[\displaystyle{\frac{\Theta(\nu - d + q)}{d}} \hspace{0.2cm} \dot{\sim} \hspace{0.2cm} F_{d,\nu - d + q}\]
Observações
| \(\nu\) = G.L. Resíduo | \(d = \max(p,q)\) | \(s = \min(p,q)\) |
|---|---|---|
| \(n = \displaystyle{\frac{\nu - p - 1}{2}}\) | \(m = \displaystyle{\frac{|p - q| - 1}{2}}\) | \(q\) = G.L. Tratamento |
| \(p\) = número de variáveis | ||
Exemplo - Análise dos dados de uma casa de repouso para idosos:
O departamento de saúde e serviços sociais de determinada cidade reembolsa casas de repouso para idosos no estado por serviços oferecidos.
O departamento desenvolve um conjunto de fórmulas para as taxas com facilidade, baseado em fatores tais como níveis de cuidados, taxa média de salários e taxa média de salários no estado.
As casas de repouso podem ser classificadas com relação à propriedade: privadas, sem fins lucrativos e públicas e também com relação à certificação: especializadas em enfermagem, unidades de cuidados intermediários ou uma combinação dos dois.
O objetivo foi verificar os efeitos de propriedade e certificação (ou ambos) sobre os custos. Quatro custos, calculados por paciente/dia, medidos em horas/paciente, foram usados:
\(X_1\): Custo de mão de obra de enfermagem;
\(X_2\): Custo de nutricionista;
\(X_3\): Custo de trabalho de manutenção e funcionamento;
\(X_4\): Custo de limpeza e lavanderia.
Um total de \(N = 516\) observações sobre os \(p = 4\) custos foram separadas pelo tipo de propriedade e estão disponíveis no arquivo Exemplo Manova.dat.